AI四巨头内部报告首度公开:AI正在学会撒谎求生
AI四巨头内部报告首度公开:AI正在学会撒谎求生这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。
搜索
这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。
上个月我做了 M5 Paper Buddy,把一块墨水屏接到 Claude Code 上,监控 AI 在干什么、需要审批什么。当时挺兴奋的,物理按键审批操作那个仪式感很好。但用了几周之后我发现,它放在桌上的时间,远比我看它的时间长。
腾讯科技、 SkillHub与腾讯玄武实验室联合发布 TRACE 严选框架,为快速增长但缺乏统一标准的 AI Skill 市场建立一套可参照的评测体系。它是一个包含安全扫描、no-skill对照实验、证据包审计、触发率测试、资源代价评估的系统性严选框架,也是国内首个面向Skill真实使用场景的严选评测体系。
我最近当 AI 班狗刷抖音,一周里被同一个项目推流了三次。项目叫 MiniMind。打开 GitHub,50.4K stars,持续上涨种。这个项目大致就是:几块钱,几个小时,从 0 开始训练一个几十 MB 的小模型。
作为刚经历答辩的毕业生,那段时间可是和 AIGC 检测周旋了许久。经历了「检测—修改—再检测—再改」的痛苦循环后,终于从 61.7% 降到 0%。这个过程之所以这么让人崩溃,是因为 AIGC 检测真的不讲武德:
Anthropic 到底是在哪个节点后来居上,和 OpenAI 拉开距离的?「海外独角兽」的这篇文章,从战略和组织这两个角度,对 Anthropic 的发展做了一次详尽的梳理和还原,分析了:
“这是我见过最激烈的竞争之一,甚至可能是资本主义历史上最激烈的竞争。”这是谷歌 DeepMind CEO Demis Hassabis 在访谈中对这场 AI 竞赛的评论。著名科技作家 Sebastian Mallaby 甚至直接将 AI 类比为现代的曼哈顿计划。
OpenAI凌晨又拉满了狂更模式!全新Codex发布:双击Command一键读通全屏隐藏文本、/goal自主编码正式毕业。最绝的是,Mac锁屏,AI也能隔空打工了。
姜旭是少数完整参与过 OpenAI 大模型核心技术演进的华人创业者之一。2019 至 2023 年间,他经历了 GPT 系列能力爆发最关键的阶段,工作横跨底层训练 infra、大规模预训练、RLHF 对齐算法与数据构建等核心链路。
毕业季,AI 几乎成了演讲者绕不开的话题。